有了成熟的语音识别、语音合成技术作基础,电话机将成为信息家电的一个重要角色。
在IBM中国研究中心的实验室里,有两台连接INTERNET的服务器,用户通过拨打相应的电话号码,就可以用自然语音同它们交谈,从INTERNET上查询信息。在公司内部员工之间只要直接对着座位上的电话机说找某某,服务器就会自动识别并连接被叫者。
IBMViaVoice中文版电话语音内核和工具库是IBM公司的中文ViaVoice语音识别技术应用于电话通信领域的最新成果,它提供了一个开放式的语音识别引擎和一套完善的应用开发环境,使语音识别和合成功能可以被方便快速地集成到电话系统中,为电话系统添加人性化的交互界面。
在电话信道上实现语音识别功能,存在着诸多挑战。
复杂多变的信道噪音电话信号在传输过程中,要经过若干个交换机以及电话线的调制,引入一定的信号失真和畸变是难免的,同时音量也较低。IBM的语音识别服务器在对接受到的电话语音进行数字信号处理时,首先处理信号的背景噪音,以最大限度地降低信道干扰。
多种电话终端用户在使用电话机同语音识别系统对话时,使用的电话机各不相同。为了克服终端设备带来的干扰,IBM采集了大量真实的语音数据,最终的语音识别系统正是以这些真实的电话语音数据为对象,使用复杂的统计训练算法得到的。
说话人的多变性IBM的语音识别系统有两种手段对付复杂的口音:一是使用说话人分类系统,用专门的识别系统将说话人归类到相应的子类中;二是大量采集各地的带有地域特点的语音数据,训练识别系统。
说话内容的随意性用户在对着电话机说话时,更多使用的是自然的口语,IBM的电话语音识别系统可以自动提取用户的关键词,理解说话人的语意,作出正确的响应,并根据上下文同说话人对话。
混合语言的使用外来语的增多加大了语音识别的难度,IBM的研究和开发人员正在努力攻克这一难题。
INTERNET上的大量信息都是中英文的混合体,语音合成系统也面临着混合语言的挑战。老的语音合成系统工作原理比较简单,合成效果很不理想。IBM公司开发出了一套基于统计学的处理算法,根据上千句的发音样本,自动训练语音合成系统。这样,通过采集某个人的上千句汉语和英语发音,便可以快速地训练出具有特定人音色特点的语音合成系统,这是以往的合成系统无法做到的。